智能论文笔记

Non-readily identifiable data collaboration analysis for multiple datasets including personal information

Akira Imakura , Tetsuya Sakurai , Yukihiko Okada , Tomoya Fujii , Teppei Sakamoto , Hiroyuki Abe

分类：机器学习

2022-08-31

多源数据融合，共同分析了多个数据源以获得改进的信息，引起了广泛的研究关注。对于多个医疗机构的数据集，数据机密性和跨机构沟通至关重要。在这种情况下，数据协作（DC）分析通过共享维数减少的中间表示，而无需迭代跨机构通信可能是合适的。在分析包括个人信息在内的数据时，共享数据的可识别性至关重要。在这项研究中，研究了DC分析的可识别性。结果表明，共享的中间表示很容易识别为原始数据以进行监督学习。然后，这项研究提出了一个非可读性可识别的直流分析，仅共享多个医疗数据集（包括个人信息）的非可读数据。所提出的方法基于随机样本排列，可解释的直流分析的概念以及无法重建的功能的使用来解决可识别性问题。在医学数据集的数值实验中，提出的方法表现出非可读性可识别性，同时保持了常规DC分析的高识别性能。对于医院的数据集，提出的方法在仅使用本地数据集的本地分析的识别性能方面表现出了9个百分点的改善。

translated by 谷歌翻译

HTML版本

Another Use of SMOTE for Interpretable Data Collaboration Analysis

Akira Imakura , Masateru Kihira , Yukihiko Okada , Tetsuya Sakurai

分类：机器学习

2022-08-26

最近，已经开发了数据协作（DC）分析，以跨多个机构跨多个机构提供隐私的综合分析。 DC分析集中了单独构建的维度减少中间表示形式，并通过协作表示实现集成分析，而无需共享原始数据。为了构建协作表示形式，每个机构都会生成并共享一个可共享的锚数据集并集中其中间表示。尽管随机锚数据集对DC分析的功能很好，但使用其分布与RAW数据集的分布接近的锚数据集有望改善识别性能，尤其是对于可解释的DC分析。基于合成少数群体过度采样技术（SMOTE）的扩展，本研究提出了一种锚数据构建技术，以提高识别性能，而不会增加数据泄漏的风险。数值结果证明了所提出的基于SMOTE方法的效率比人工和现实世界数据集的现有锚数据构建体的效率。具体而言，所提出的方法在收入数据集的现有方法上分别实现了9个百分点和38个百分点的性能改进。提出的方法提供了SMOTE的另一种用途，而不是用于不平衡的数据分类，而是用于隐私保护集成分析的关键技术。

translated by 谷歌翻译

HTML版本

Collaborative causal inference on distributed data

Yuji Kawamata , Ryoki Motai , Yukihiko Okada , Akira Imakura , Tetsuya Sakurai

分类：机器学习

2022-08-16

近年来，通过分布式数据的隐私保存的因果推断技术的开发引起了人们的关注。为了解决这个问题，我们提出了基于数据协作（DC-QE）的准实验，该实验可以从具有隐私保护的分布式数据中获得因果推断。我们的方法通过仅共享降低维度的中间表示来保留私人数据的隐私，这些中间表示由各方单独构建。此外，我们的方法可以减少随机错误和偏见，而现有方法只能减少治疗效果估计中的随机错误。通过对人工和现实世界数据的数值实验，我们确认我们的方法可以比单个分析得出更好的估计结果。随着我们方法的传播，可以将中间表示形式作为开放数据发布，以帮助研究人员找到因果关系并积累为知识库。

translated by 谷歌翻译

Theory of Acceleration of Decision Making by Correlated Time Sequences

Norihiro Okada , Tomoki Yamagami , Nicolas Chauvet , Yusuke Ito , Mikio Hasegawa , Makoto Naruse

分类：机器学习

2022-03-30

已经对光子加速器进行了深入的研究，以提供增强的信息处理能力，从而受益于物理过程的独特属性。最近，据报道，从激光器（Laser Chaos）的混沌振荡超快时间序列提供了解决多臂匪徒（MAB）问题或决策问题的能力。此外，已经证实，激光混乱的负相关时间域结构有助于加速决策。但是，为什么相关时间序列加速决策的基本机制尚不清楚。在这项研究中，我们展示了一个理论模型，以说明相关时间序列加速决策的理论模型。我们首先证实了使用傅立叶变换替代方法来解决两臂匪徒问题的固有时间序列的负自相关的有效性。我们提出了一个理论模型，该模型涉及遵守决策系统和系统内部状态的相关时间序列，并受到相关的随机步行的启发。我们证明，该理论分析得出的性能与数值模拟非常吻合，该模拟证实了所提出的模型的有效性并导致最佳系统设计。本研究为提高相关时间序列的有效性铺平了道路，从而影响人工智能和其他应用。

translated by 谷歌翻译

Classification of URL bitstreams using Bag of Bytes

Keiichi Shima , Daisuke Miyamoto , Hiroshi Abe , Tomohiro Ishihara , Kazuya Okada , Yuji Sekiya , Hirochika Asai , Yusuke Doi

分类：人工智能

2021-11-11

保护用户免受访问恶意网站的是网络运营商的重要管理任务之一。有许多开源和商业产品来控制用户可以访问的网站。最传统的方法是基于黑名单的过滤。这种机制简单但不可扩展，尽管使用模糊匹配技术存在一些增强的方法。其他方法尝试通过从URL字符串中提取功能来使用机器学习（ML）技术。这种方法可以覆盖更广泛的互联网网站区域，但找到了良好的功能需要深入了解网站设计的趋势。最近，出现了使用深度学习（DL）的另一种方法。 DL方法将有助于通过调查大量现有的示例数据自动提取功能。使用此技术，我们可以通过继续教导近期趋势的神经网络模块来构建灵活的过滤决策模块，而没有URL域的任何特定专家知识。在本文中，我们应用了从URL字符串生成特征向量的机械方法。我们实施了我们的方法，并使用了从研究组织和来自着名的网络钓鱼网站信息信息，Phishtank.com获取的现实URL访问历史记录数据。与现有的基于DL的方法相比，我们的方法可以获得2〜3％的更好的准确性。

translated by 谷歌翻译

Classifying DNS Servers based on Response Message Matrix using Machine Learning

Keiichi Shima , Ryo Nakamura , Kazuya Okada , Tomohiro Ishihara , Daisuke Miyamoto , Yuji Sekiya

分类：机器学习

2021-11-09

配置不正确的域名系统（DNS）服务器有时用作数据包反射器，作为DOS或DDOS攻击的一部分。通过监视DNS请求和响应流量，可以逻辑地逻辑地检测作为此活动的结果创建的分组。任何没有相应请求的响应都可以被视为反射消息;然而，检查和跟踪每个DNS数据包是非微不足道的操作。在本文中，我们提出了一种通过使用从少量数据包和机器学习算法构建的DNS服务器特征矩阵用作反射器的DNS服务器的检测机制。当在同一天生成测试和培训数据时，错误DNS服务器检测的F1评分大于0.9，并且对于不用于同一天的培训和测试阶段的数据，超过0.7。

translated by 谷歌翻译